警告:本文包含几个不道德和敏感的陈述。为了安全性而对齐的语言模型通常会表现出脆弱和不平衡的机制,从而增加了产生不安全内容的机会。此外,融合新知识的编辑技术可以进一步损害安全性。为了解决这些问题,我们提出了SAFE I NFER,这是一种自适应,解码的 - 时间安全对准策略,用于对用户查询产生安全响应。s afe i nfer涉及两个阶段:“安全放大”阶段,它使用安全的演示示例来调整模型的隐藏状态并增加了更安全的输出的可能性,以及“安全指导的解码”阶段,这些阶段会影响标记的选择,这些选择基于安全性分布,以确保生成的内容依附于以供货物网络的网状网络,以确保以太性网状网络的网状。此外,我们介绍了Harm E Val,这是一种用于全面安全评估的新基准,旨在根据领先的AI技术公司的政策来解决潜在的滥用方案。我们在以下位置发布源代码和数据集:https://github.com/neuralsentinel/safeinfer。
主要关键词
![arxiv:2406.12274v2 [CS.CL] 2024年12月14日PDF文件第1页](/bimg/8/8503339f1192de43af28ff4c01f84cbca1d3c326.webp)
![arxiv:2406.12274v2 [CS.CL] 2024年12月14日PDF文件第2页](/bimg/d/d8e8541cb263cc86de20bf87fd447b7782c9a5ce.webp)
![arxiv:2406.12274v2 [CS.CL] 2024年12月14日PDF文件第3页](/bimg/0/0c69b5ed3157bd1eea508db71af4694d1734e27d.webp)
![arxiv:2406.12274v2 [CS.CL] 2024年12月14日PDF文件第4页](/bimg/7/78d3b7fb6c43fcf0c405378283edf909be642331.webp)
![arxiv:2406.12274v2 [CS.CL] 2024年12月14日PDF文件第5页](/bimg/a/a88b48413361ac25d9493db7b0fdb4fd23ff5c2a.webp)
